Về việc ước lượng năng lực thí sinh và tham số câu hỏi Lý_thuyết_Ứng_đáp_Câu_hỏi

Như đã biết, các mô hình IRT xét mối tương tác của một TS có năng lực θ với một CH có các tham số a, b, c. Tuy nhiên, trong hoạt động đánh giá thực tế, cái mà chúng ta có thể thu được trực tiếp từ số liệu kiểm tra là việc trả lời các CH của các TS qua bài trắc nghiệm. Từ các số liệu thu được trực tiếp đó làm sao xác định các tham số a, b, c' của các CH và năng lực θ của các TS? Đó là bài toán cơ bản và quan trọng nhất của IRT, vì năng lực của TS là cái cuối cùng mà ta muốn biết, còn các tham số của CH là cần thiết để chúng ta có thể sử dụng các CH nhằm thiết kế các công cụ thích hợp để đo lường chính xác năng lực của TS. Bài toán quan trọng đó được giải quyết bằng các thuật toán ước lượng năng lực TS và tham số CH, việc tìm ra các thuật toán tốt nhất để giải bài toán này là một trong các mục tiêu quan trọng của IRT, và có thể nói quyết định thành công của việc áp dụng IRT vào thực tế hoạt động đánh giá.Tuy nhiên, muốn trình bày đầy đủ thuật toán đã nêu cần nhiều kiến thức về toán học và thống kê học. Bạn đọc muốn đi sâu vào những vấn đề đó có thể tìm hiểu sơ bộ ở [5], và đầy đủ hơn trong [6]. Ở đây chỉ xin giới thiệu khái quát bản chất của các thuật toán ước lượng nói trên, và để dễ hiểu, phải hy sinh một phần tính chính xác khi trình bày.

Giả sử chúng ta cần dùng một ĐTN gồm 100 CH để xác định năng lực tiếng Anh của 200 TS. Khi cho 200 TS làm ĐTN, chúng ta sẽ thu được các bài làm chứa ứng đáp của mọi TS đối với mọi CH, kết quả đó được gọi là số liệu thực nghiệm. Giả sử là các ứng đáp của TS tuân theo quy luật được xác định bởi mô hình Rasch, biểu hiện ở công thức (5). Các giá trị năng lực θν của mỗi TS và độ khó bi của mỗi CH trong (5) là cái mà chúng ta muốn ước lượng. Đầu tiên chúng ta chưa biết chúng, nhưng bằng đoán nhận, hãy gán cho chúng các giá trị nào đó gọi là giá trị tiên nghiệm (a priori), và tính 100x200=20.000 giá trị xác suất P theo công thức (5); tập hợp các xác suất đó được gọi là số liệu lý thuyết. Bằng các cách thức trong giải tích phiếm hàm, người ta tìm một con số đại diện cho số liệu thực nghiệm và một con số tương ứng đại diện cho số liệu lý thuyết để so sánh các con số này với nhau. Với các giá trị được gán đầu tiên cho số liệu lý thuyết, độ chênh giữa (con số đại diện cho) số liệu lý thuyết và (con số đại diện cho) số liệu thực nghiệm thường rất lớn. Thuật toán sẽ chỉ ra phương hướng điều chỉnh các giá trị θν và bi trong (5) sao cho sau lần tính lặp độ chênh giữa số liệu lý thuyết và số liệu thực nghiệm bé hơn. Nếu độ chênh còn lớn, người ta lại điều chỉnh các giá trị θν và bi trong (5) và tính lặp lần thứ hai. Có thể quy ước xem số liệu lý thuyết là trùng hợp với số liệu thực nghiệm khi độ chênh giữa chúng bé hơn một giới hạn nào đó, chẳng hạn bé hơn một phần nghìn giá trị của chúng. Khi độ chênh chưa bé hơn giới hạn đó, người ta tiếp tục quá trình tính lặp. Việc tính lặp có thể thực hiện lần thứ ba, thứ tư,... cho đến lần thứ hàng trăm, hàng nghìn sao cho đạt được giới hạn quy định. Khi đạt được giới hạn quy định về độ chênh, chương trình sẽ ra lệnh dừng tính, và các giá trị θν và bi thu được ở lần tính lặp cuối cùng chính là giá trị lý thuyết trùng hợp với giá trị thực nghiệm theo mô hình Rasch.

Với các mô hình IRT 2 và 3 tham số, quá trình ước lượng cũng được thực hiện theo nguyên tắc tương tự như đã mô tả trên đây, tuy số tham số tính toán nhiều hơn. Một trong các thuật toán thường được sử dụng cho quy trình ước lượng nói trên là thuật toán biến cố hợp lý cực đại và nhiều thuật toán khác được trình bày trong [6].

Vì việc thực hiện bài toán ước lượng giá trị năng lực của TS và các tham số của CH khá phức tạp nên đa số bạn đọc thông thường không cần phải bận tâm nhiều đến các thuật toán cụ thể, bởi vì ngày nay đã có nhiều phần mềm chuyên dụng được các chuyên gia tâm trắc học xây dựng phục vụ các bài toán ước lượng đó. Chẳng hạn sau đây là một số phần mềm được sử dụng tương đối phổ biến hiện nay: CONQUEST của Úc và WINSTEPS của Mỹ cho mô hình Rasch (một tham số) nhị phân và đa phân, BILOG–MG3 của Mỹ cho mô hình 1, 2, 3 tham số nhị phân, PARSCALS, MULTILOG cho mô hình đa phân,... Ở Việt Nam phần mềm đầu tiên phục vụ cho bài toán này là VITESTA, cho các mô hình 1, 2, 3 tham số nhị phân và đa phân, được công ty EDTECH–VN xây dựng từ năm 2007 [7].

Tính bất biến của năng lực thí sinh và tham số câu hỏi

Một trong các nhược điểm của CTT là có sự phụ thuộc của tham số CH vào mẫu TS được sử dụng để xác định chúng, cũng như sự phụ thuộc của năng lực đo được của TS vào các CH, tức là vào ĐTN cụ thể được sử dụng để đo lường năng lực ấy. Một minh họa rõ ràng nhất là nếu đưa cùng một CH trắc nghiệm cho hai nhóm TS làm, một nhóm có nhiều TS giỏi hơn nhóm kia, thì độ khó của CH xác định theo Lý thuyết trắc nghiệm cổ điển (tỷ số TS làm đúng trên tổng số TS tham gia) tất yếu sẽ khác nhau, tức là giá trị độ khó phụ thuộc vào mẫu TS được dựa vào để xác định độ khó. Nhược điểm này của Lý thuyết Trắc nghiệm cổ điển gây khó khăn cho việc thiết kế các ĐTN theo ý muốn, đặc biệt là thiết kế các ĐTN tương đương.Với IRT, có thể chứng minh từ lý thuyết và kiểm chứng qua thực nghiệm rằng nhược điểm đó được khắc phục, có nghĩa là không có sự phụ thuộc của tham số CH vào mẫu TS được dùng để xác định chúng (sample–free) cũng như không có sự phụ thuộc của năng lực xác định được của TS vào ĐTN cụ thể được dùng để đo năng lực ấy (item–free). Tổng quát hơn, người ta có thể nói rằng các tham số của CH và giá trị năng lực của TS là các bất biến (invariant).

Cần hiểu rõ tính bất biến ở đây là bất biến đối với các phép đo để xác định các tham số đó. Có thể nêu một ví dụ đơn giản để minh họa: dùng một thước đo dài 1 mét (1 mét là thuộc tính của thước đo) để đo một cái bàn dài 6 mét (6 mét là thuộc tính của cái bàn). Thuộc tính của thước đo và thuộc tính của cái bàn là các bất biến của chúng, không được thay đổi khi thực hiện phép đo, tức là khi áp cái thước vào để đo cái bàn.

Hiển nhiên là năng lực của TS sẽ thay đổi qua một quá trình học tập; hiện tượng đó không liên quan đến tính bất biến được khẳng định trên đây.

Cũng cần lưu ý rằng tính bất biến nói trên chỉ được tuân thủ khi có sự phù hợp giữa số liệu thực nghiệm và mô hình; muốn vậy, các điều kiện được đề ra khi xây dựng mô hình cũng phải được thoả mãn (chẳng hạn, tính đơn chiều của năng lực, tính độc lập địa phương của các CH). Khi sự phù hợp giữa số liệu thực nghiệm và mô hình bị vi phạm thì tính bất biến đó cũng không còn. Hơn nữa, tính bất biến là đặc điểm của mô hình trên cả tổng thể được nghiên cứu (bởi vì nó có liên quan đến phép hồi quy thống kê trên toàn bộ tổng thể chứ không phải trên từng mẫu thử (có thể tìm hiểu ở [5]), do đó trên các mẫu thử khác nhau, tính bất biến có thể bị vi phạm ở các mức độ khác nhau.